기하 분포
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
기하 분포는 독립적인 베르누이 시행에서 첫 번째 성공까지의 시도 횟수를 나타내는 이산 확률 분포이다. 확률 질량 함수는 시행 횟수와 성공 확률에 따라 달라지며, 첫 번째 성공까지 시도한 횟수(X) 또는 실패한 횟수(Y)를 기준으로 정의될 수 있다. 기하 분포는 무기억성을 가지며, 확률 생성 함수, 기댓값, 분산 등의 성질을 갖는다. 통계적 추론에서는 모수 p를 추정하기 위해 적률법, 최대 우도 추정법, 베이즈 추론 등이 사용되며, 대기열 이론, 확률 과정, 장치 수명 모델링 등 다양한 분야에 응용된다. 또한, 균등 분포 확률 변수나 지수 확률 변수를 활용하여 난수를 생성할 수 있다.
더 읽어볼만한 페이지
기하 분포 | |
---|---|
확률 분포 | |
![]() | |
![]() | |
기본 정보 | |
종류 | 질량 함수 |
모수 | 0 < p ≤ 1 (성공 확률, 실수) |
지지 | k (k ∈ ℕ = {1, 2, 3, ...}) |
확률 질량 함수 | (1 - p)^(k-1)p |
누적 분포 함수 | x ≥ 1일 때: 1-(1 - p)^⌊x⌋ x < 1일 때: 0 |
평균 | 1/p |
중앙값 | ⌈-1/log₂(1-p)⌉ (-1/log₂(1-p)가 정수가 아니면 유일하지 않음) |
최빈값 | 1 |
분산 | (1-p)/p² |
왜도 | (2-p)/√(1-p) |
2. 정의
기하 분포는 독립적이고 동일하게 분포된 베르누이 시행에서 첫 번째 성공이 나타나는 시점을 설명하는 이산 확률 분포이다. 확률 질량 함수는 매개변수화 및 지지 집합에 따라 달라진다.
:
여기서 는 시행 횟수이고 는 각 시행에서 성공할 확률이다.
:
여기서 이다.
:
여기서 및 이다.
6면 주사위를 굴려 "1"이 나올 때까지 굴리는 경우 각 굴림은 의 성공 확률로 독립이며, 필요한 굴림 횟수는 인 기하 분포를 따른다.
2. 1. 첫 번째 성공까지 시도한 횟수 (X)
기하 분포는 무한한 일련의 독립적이고 동일하게 분포된 베르누이 시행에서 첫 번째 성공이 발생하는 시점을 설명하는 이산 확률 분포이다.[1] 에서 지지될 때, 확률 질량 함수는 다음과 같다.:
여기서 는 시행 횟수이고 는 각 시행에서 성공할 확률이다.
예를 들어 6면 주사위를 굴려 "1"이 나올 때까지 굴리는 경우, 각 굴림은 의 성공 확률로 독립이다. 이때 필요한 굴림 횟수는 인 기하 분포를 따른다.
2. 2. 첫 번째 성공까지 실패한 횟수 (Y)
기하 분포는 에서 지지될 수 있으며, 로 정의된다. 이는 첫 번째 성공 전 실패 횟수를 의미하며, 확률 질량 함수는 다음과 같다.[2]:
여기서 이다.[2]
또 다른 매개변수화는 다음과 같은 확률 질량 함수를 제공한다.
:
여기서 및 이다.[4]
3. 성질
기하 분포는 지수분포와 마찬가지로 무기억 분포이며, 유일한 무기억 이산 확률 분포이다.[3] 이 성질은 이전에 실패한 시행 횟수가 성공에 필요한 미래 시행 횟수에 영향을 미치지 않는다는 것을 의미한다.
기하 분포는 정의에 따라 두 가지 무기억성을 가진다.[5] 조건부 확률로 표현하면 다음과 같다.
:
:
여기서 과 은 자연수이고, 는 에서, 는 에서 정의된 기하 분포를 따르는 확률 변수이다. 두 정의는 동일하지 않으며, 는 첫 번째 방정식을, 는 두 번째 방정식을 만족하지 않는다.
이는 동전 던지기를 예로 들면, 앞면이 나올 때까지 던지는 횟수에 대해, 이미 여러 번 실패했더라도 다음번 성공 확률은 변하지 않는다는 것을 의미한다. 도박에서 "운이 쌓인다"는 생각은 오류이며, 과거의 실패는 미래의 확률에 영향을 주지 않는다.
과 에서 정의된 기하 분포의 적률생성함수는 다음과 같다.[7][6]
:
에서 정의된 기하 분포의 큐뮬런트 생성 함수는 다음과 같다.[4]
:
큐뮬런트 는 다음 재귀 관계를 만족한다 (, 에서 정의).[4]
:
기하 분포의 중앙값은 에서 정의될 때 이고, 에서 정의될 때는 이다.
기하 분포의 최빈값은 에서 정의될 때는 1이고, 에서 정의될 때는 0이다.
기하 분포의 왜도는 이다.
기하 분포의 첨도는 이고, 초과 첨도는 이다. 초과 첨도는 항상 양수이므로 기하 분포는 레프토쿠르트(leptokurtic)이다.
기하 확률 변수 와 ( 및 에서 정의)의 확률 생성 함수는 다음과 같다.[6]
::
특성 함수 는 와 같으므로, 기하 분포의 특성 함수는 과 에서 각각 정의될 때 다음과 같다.[11]
::
모수 를 갖는 기하 분포의 엔트로피는 다음과 같다.[13]
::
주어진 평균에 대해 기하 분포는 모든 이산 확률 분포 중 최대 엔트로피 확률 분포이며, 해당하는 연속 분포는 지수 분포이다.[12]
에서 정의된 기하 분포는 무한 가분이다.
골롬 부호화는 기하 이산 분포에 대한 최적의 접두어 부호이다.[13]
기하 분포의 분산 지수는 이고, 변동 계수는 이다. 이 분포는 과분산이다.[4]
3. 1. 기댓값과 분산
기하 분포를 따르는 확률 변수 가 에서 정의될 때, 기댓값과 분산은 다음과 같다.[1]:
확률 변수 가 에서 정의될 때 기댓값은 다음과 같이 변하며, 분산은 동일하다.[6]
:
예를 들어, 6면 주사위를 굴려 "1"이 나올 때까지의 평균 굴린 횟수는 이고, 평균 실패 횟수는 이다.
성공할 때까지의 평균 시도 횟수인 ''X''의 기대값 는 다음과 같이 구할 수 있다.
첫 번째 시도에서 확률 로 성공하거나, 확률 로 실패한다. 실패할 경우, 성공할 때까지의 '''남은''' 평균 시도 횟수는 원래 평균과 동일하다. 이는 모든 시도가 독립적이라는 사실에서 비롯된다. 이로부터 다음 공식을 얻을 수 있다.
:
이것을 에 대해 풀면 다음과 같다.
:
'''실패''' 횟수 의 기대값은 기대값의 선형성으로부터 구할 수 있으며, 이다. 또한 다음과 같은 방식으로 나타낼 수도 있다.
:
확률 변수 의 기댓값과 분산은 다음과 같다.
:
확률 변수 의 기댓값과 분산은 다음과 같다.
:
3. 2. 무기억성
지수분포와 마찬가지로, 기하 분포는 무기억 분포이다. 기하 분포는 유일한 무기억 이산 확률 분포이다.[3] 이는 지수 분포에서 발견되는 동일한 속성의 이산 버전이다.[4] 이 속성은 이전에 실패한 시행 횟수가 성공에 필요한 미래 시행 횟수에 영향을 미치지 않는다고 주장한다.기하 분포에는 두 가지 정의가 있기 때문에, 이산 확률 변수에 대한 무기억성에도 두 가지 정의가 있다.[5] 조건부 확률로 표현하면, 두 정의는 다음과 같다.
:
그리고
:
여기서 과 은 자연수이고, 는 에서 정의된 기하 분포를 따르는 확률 변수이며, 는 에서 정의된 기하 분포를 따르는 확률 변수이다. 이러한 정의는 이산 확률 변수에 대해 동일하지 않다는 점에 유의해야 한다. 는 첫 번째 방정식을 만족하지 않고, 는 두 번째 방정식을 만족하지 않는다.
기하 분포의 중요한 성질 중 하나는 무기억성이다. 기하 분포에서는 어떠한 성공 확률에 대해서도
:
라는 등식이 성립한다. 이는 동전 던지기를 예로 들면, 동전 던지기를 반복하여 적어도 번 앞면이 나오지 않았다는 정보가 주어졌을 때, 앞면이 나올 때까지 던지는 횟수가 를 초과하는 조건부 확률은, 정보가 주어지지 않은 경우의 확률 (즉, 지금 모든 것을 잊고 다시 동전 던지기를 시작하여, 앞면이 나올 때까지 던지는 횟수가 회를 초과하는 확률)과 같다는 의미이다.
각종 도박에서 졌을 때, 종종 "운이 쌓이고 있다"거나 "슬슬 이길 차례가 올 것이다"와 같은 생각에 빠지기 쉽다. 그러나 시행의 독립 (확률론)을 가정하는 한, 이 생각은 오류이며, 졌다는 정보는 미래의 확률에 아무런 영향을 주지 않는다는 것을 무기억성으로부터 알 수 있다.
이 역, 즉 무기억성을 갖는 이산형 확률 분포가 기하 분포뿐이라는 것도 비교적 쉽게 증명된다.
3. 3. 다른 분포와의 관계
- 지수분포와 마찬가지로, 무기억 분포이다.
- 매개변수 를 갖는 개의 독립적인 기하 확률 변수의 합은 매개변수 과 를 갖는 음이항 확률 변수이다.[14] 기하 분포는 일 때 음이항 분포의 특수한 경우이다.
- 기하 분포는 이산 화합 포아송 분포의 특수한 경우이다.[11]
- 매개변수 을 갖는 개의 기하 확률 변수의 최솟값은 매개변수 를 갖는 기하 분포를 따른다.[15]
- 지수 분포는 기하 분포의 연속적인 형태이다. 매개변수 를 갖는 지수 분포에 바닥 함수를 적용하면 에서 정의된 매개변수 를 갖는 기하 분포가 생성된다.[2]
- 만약 ''p'' = 1/''n''이고 ''X''가 매개변수 ''p''를 갖는 기하 분포를 따른다면, ''X''/''n''의 분포는 ''n'' → ∞일 때 기댓값이 1인 지수 분포에 접근한다.
- 기하 분포의 분산 지수는 이고, 변동 계수는 이다. 이 분포는 과분산이다.[4]
3. 4. 기타 성질
확률 변수가 에서 정의될 때 기댓값과 분산은 다음과 같다.[1]::
에서 정의될 때 기댓값은 다음과 같이 변한다.
::
반면 분산은 동일하다.[6]
예를 들어, 6면 주사위를 굴려 "1"이 나올 때까지의 평균 굴린 횟수는 이고, 평균 실패 횟수는 이다.
과 에서 정의된 기하 분포의 적률생성함수는 다음과 같다.[7][6]
::
에서 정의된 기하 분포의 큐뮬런트 생성 함수는 다음과 같다.[4]
::
큐뮬런트 는 다음의 재귀 관계를 만족한다.
::
여기서 이며, 에서 정의된다.[4]
기하 분포의 평균은 § 적률과 큐뮬런트에서 논의했듯이 또는 이며, 각각 또는 에서 정의된다.
기하 분포의 중앙값은 에서 정의될 때 이고, 에서 정의될 때는 이다.
기하 분포의 최빈값은 에서 정의될 때는 1이고, 에서 정의될 때는 0이다.
기하 분포의 왜도는 이다.
기하 분포의 첨도는 이다. 기하 분포의 초과 첨도는 이다. 이므로 초과 첨도는 항상 양수이므로 분포는 레프토쿠르트(leptokurtic)이다. 다시 말해 기하 분포의 꼬리는 가우시안보다 더 빠르게 감소한다.
첫 번째 성공 전에 실패한 횟수를 모델링하는 기하 분포의 엔트로피는 다음과 같다.
:
성공의 확률 가 감소함에 따라 엔트로피가 증가하며, 이는 성공이 드물어짐에 따라 불확실성이 커짐을 나타낸다.
기하 분포 (첫 번째 성공 전 실패)에 대한 에 대한 피셔 정보는 다음과 같다.
:
피셔 정보는 가 감소함에 따라 증가하며, 이는 드문 성공이 매개변수 에 대한 더 많은 정보를 제공함을 나타낸다.
첫 번째 성공까지의 시행 횟수를 모델링하는 기하 분포의 엔트로피 는 다음과 같다.
:
엔트로피는 가 감소함에 따라 증가하며, 각 시행에서 성공 확률이 작아짐에 따라 더 큰 불확실성을 반영한다.
기하 분포(성공까지 시도 횟수)에 대한 피셔 정보는 다음과 같다.
:
기하 확률 변수 와 가 및 에서 정의될 때의 확률 생성 함수는 다음과 같다.[6]
::
특성 함수 는 와 같으므로, 기하 분포의 특성 함수는 과 에서 각각 정의될 때 다음과 같다.[11]
::
모수 를 갖는 기하 분포의 엔트로피는 다음과 같다.[13]
::
주어진 평균에 대해 기하 분포는 모든 이산 확률 분포 중 최대 엔트로피 확률 분포이다. 이에 해당하는 연속 분포는 지수 분포이다.[12]
에서 정의된 기하 분포는 무한 가분이다.
골롬 부호화는 기하 이산 분포에 대한 최적의 접두어 부호이다.[13]
매개변수 를 갖는 개의 독립적인 기하 확률 변수의 합은 매개변수 과 를 갖는 음이항 확률 변수이다.[14] 기하 분포는 음이항 분포의 특수한 경우로, 일 때 해당한다.
기하 분포는 이산 화합 포아송 분포의 특수한 경우이다.[11]
매개변수 을 갖는 개의 기하 확률 변수의 최솟값은 매개변수 를 갖는 기하 분포를 따른다.[15]
지수 분포는 기하 분포의 연속적인 아날로그이다. 매개변수 를 갖는 지수 분포에 바닥 함수를 적용하면 에서 정의된 매개변수 를 갖는 기하 분포가 생성된다.[2]
만약 ''p'' = 1/''n''이고 ''X''가 매개변수 ''p''를 갖는 기하 분포를 따른다면, ''X''/''n''의 분포는 ''n'' → ∞일 때 기댓값이 1인 지수 분포에 접근한다.
기하 분포의 분산 지수는 이고, 변동 계수는 이다. 이 분포는 과분산이다.[4]
4. 통계적 추론
기하 분포의 알려지지 않은 모수 ''p''는 추정량과 켤레 분포를 통해 추론할 수 있다. 모수 추정에는 적률법, 최대 우도 추정법, 베이즈 추론 등이 사용된다.[16][17]
4. 1. 모수 추정
기하 분포의 모수를 추정하는 방법에는 적률법, 최대 우도 추정법, 베이즈 추론 등이 있다. 이러한 방법들은 표본 데이터를 기반으로 모수를 추정한다.[16][17]4. 1. 1. 적률법
확률 분포의 처음 모멘트가 존재한다면, 표본 을 사용하여 다음 공식으로 추정할 수 있다.:
여기서 는 번째 표본 모멘트이고, 이다.[16] 를 으로 추정하면 표본 평균, 즉 를 얻는다. 기하 분포의 기대값 공식에 이 추정값을 대입하고 에 대해 풀면, 각각 및 에서 지원될 때 추정량 및 을 얻는다. 이 추정량은 젠센 부등식의 결과로 이기 때문에 편향되어 있다.[17]
4. 1. 2. 최대 우도 추정법
p영어의 최대 우도 추정량은 표본이 주어졌을 때 우도 함수를 최대로 만드는 값이다.[16] 분포가 에서 정의될 때, 로그 우도 함수의 미분의 영점을 찾음으로써 최대 우도 추정량은 로 구할 수 있으며, 여기서 는 표본 평균이다.[18] 만약 정의역이 이면, 추정량은 로 변경된다. 이 추정량들은 앞서 § 적률법에서 논의했듯이 편향되어 있다.도메인에 관계없이, 편향은 다음과 같다.
:
이는 편향 보정된 최대 우도 추정량을 산출한다.
:
4. 1. 3. 베이즈 추론
베이즈 추론에서, 모수 는 사전 분포로부터의 확률 변수이며, 표본을 관찰한 후 베이즈 정리를 사용하여 사후 분포를 계산한다.[17] 만약 베타 분포가 사전 분포로 선택된다면, 사후 분포 또한 베타 분포가 되며, 이를 켤레 분포라고 한다. 특히, 사전 분포가 선택된 경우, 표본 을 관찰한 후 사후 분포는 다음과 같다.[19]:
또는, 표본이 에 있는 경우 사후 분포는 다음과 같다.[20]
:
분포의 기댓값은 이므로,[11] 와 가 0에 가까워질수록 사후 평균은 최대 우도 추정량에 접근한다.
5. 응용
기하 분포는 여러 분야에서 사용된다. 대기열 이론에서 M/M/1 대기열은 기하 분포를 따르는 정상 상태를 갖는다.[23] 확률 과정에서 Yule-Furry 과정은 기하 분포를 따른다.[24] 이 분포는 또한 이산적인 상황에서 장치의 수명을 모델링할 때 발생한다.[25] 또한 COVID-19 확산 환자를 모델링하는 등 데이터를 적합시키는 데에도 사용되었다.[26]
6. 난수 생성
기하 분포는 표준 균등 분포 확률 변수로부터, 처음으로 보다 작거나 같은 확률 변수를 찾아 실험적으로 생성할 수 있다. 하지만 필요한 확률 변수의 개수 역시 기하 분포를 따르며, 가 감소함에 따라 알고리즘이 느려진다.[21]
지수 확률 변수를 잘라내는 방식을 사용하면 상수 시간 내에 무작위 생성을 수행할 수 있다. 지수 확률 변수 는 를 통해 매개변수 를 갖는 기하 분포가 될 수 있다. 결과적으로, 는 표준 균등 확률 변수 로부터, 공식을 로 변경하여 생성될 수 있다.[21][22]
참조
[1]
서적
Probability and Conditional Expectation: Fundamentals for the Empirical Sciences
https://onlinelibrar[...]
Wiley
2017-04-04
[2]
서적
Discrete Distributions in Engineering and the Applied Sciences
https://link.springe[...]
Springer International Publishing
[3]
서적
A Modern Introduction to Probability and Statistics
http://link.springer[...]
Springer London
2005
[4]
서적
Univariate Discrete Distributions
https://onlinelibrar[...]
Wiley
2005-08-19
[5]
웹사이트
Memoryless
https://mathworld.wo[...]
2024-07-25
[6]
서적
Statistical Distributions
https://onlinelibrar[...]
Wiley
2010-11-29
[7]
서적
Introduction to probability
https://archive.org/[...]
Athena Scientific
[8]
웹사이트
Geometric Distribution
https://mathworld.wo[...]
2024-07-13
[9]
서적
Probability and Statistics for Machine Learning: A Textbook
https://link.springe[...]
Springer Nature Switzerland
[10]
서적
Introduction to Probability for Data Science
https://probability4[...]
Michigan Publishing
[11]
서적
International Encyclopedia of Statistical Science
http://link.springer[...]
Springer Berlin Heidelberg
[12]
간행물
Note on the generation of most probable frequency distributions
https://onlinelibrar[...]
1972-03
[13]
간행물
Optimal source codes for geometrically distributed integer alphabets (Corresp.)
1975-03
[14]
서적
Probability
http://link.springer[...]
Springer New York
1993
[15]
간행물
On the minimum of independent geometrically distributed random variables
https://dx.doi.org/1[...]
1995-06-01
[16]
서적
Probability and Statistics: The Science of Uncertainty
https://www.utstat.t[...]
Macmillan Learning
[17]
서적
Likelihood and Bayesian Inference: With Applications in Biology and Medicine
https://link.springe[...]
Springer Berlin Heidelberg
2020
[18]
웹사이트
7.3: Maximum Likelihood
https://stats.libret[...]
2024-06-20
[19]
CiteSeerX
A Compendium of Conjugate Priors
[20]
웹사이트
3. Conjugate families of distributions
http://halweb.uc3m.e[...]
[21]
서적
Non-Uniform Random Variate Generation
http://link.springer[...]
Springer New York
[22]
서적
The Art of Computer Programming
Addison-Wesley
[23]
서적
Bite-Sized Operations Management
https://link.springe[...]
Springer International Publishing
[24]
서적
Introduction to Stochastic Processes Using R
https://link.springe[...]
Springer Nature Singapore
[25]
간행물
Some Discrete Parametric Markov–Chain System Models to Analyze Reliability
https://link.springe[...]
Springer Nature Singapore
2024-07-13
[26]
간행물
An application of the geometric distribution for assessing the risk of infection with SARS-CoV-2 by location
https://www.nepjol.i[...]
2021-10-01
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com